Протеомы и EMBOSS

Во время выполнения заданий седьмого практикума я действовала в соответствии с данными инструкциями. Однако поиск протеома бактерии Burkholderia sp. MSMB122 ничего мне не дал (перешла на Advanced, выбрала в меню "Taxonomy (OC)" и внесла в окошко "burkholderia sp". Нужного штамма не обнаружила.) Поэтому для скачивания мной был выбран протеом бактерии Burkholderia sp. MSMB1835.

Частоты остатков в протеомах

Для поверхностного ознакомления с протеомами Burkholderia sp. MSMB1835 и Escherichia coli (strain K12) в банке UniProt предлагаю рассмотреть Таблицу 1.

Таблица 1. Общая информация
Характеристика	Burkholderia sp. MSMB1835	Escherichia coli (strain K12)
Organism ID	1637876	83333
Proteome ID	UP000062414	UP000000625
Число последовательностей	6182	4306
Число остатков	2032200	1356192

Для Escherichia coli (strain K12) в характеристике "Число остатков" я не учитываю 3 остатка селеноцистеина U. В сумме с ними Escherichia coli (strain K12) содержит 1356195 остатка.

Таблица 2 предоставлена для более подробного ознакомления. Она описывает процентное соотношение остатков в каждом из протеомов, а также демонстрирует разность процентов между остатками протеомов Burkholderia sp. MSMB1835 и Escherichia coli (strain K12)
Ссылка для скачивания Excel файла, на основе которого была составлена Таблица 2

Таблица 2. Сравнительная процентная таблица
Буква	Burkholderia sp. MSMB1835	Escherichia coli (strain K12)	Разность процентов
A	13,87%	9,51%	-4,36%
L	10,12%	10,67%	0,55%
G	8,45%	7,37%	-1,08%
V	7,85%	7,07%	-0,77%
R	7,29%	5,51%	-1,78%
D	5,88%	5,15%	-0,73%
T	5,49%	5,40%	-0,09%
P	5,29%	4,43%	-0,86%
S	5,23%	5,80%	0,58%
E	4,57%	5,76%	1,19%
I	4,44%	6,01%	1,57%
F	3,62%	3,89%	0,28%
Q	3,34%	4,44%	1,10%
K	2,75%	4,41%	1,65%
N	2,61%	3,95%	1,34%
Y	2,42%	2,85%	0,43%
H	2,31%	2,27%	-0,04%
M	2,22%	2,82%	0,60%
W	1,38%	1,53%	0,16%
C	0,89%	1,16%	0,27%

Анализируя Таблицу 2, мы можем сделать следующие выводы:
~Три самых частых остатка A(Аланин), L(Лейцин) и G(Глицин). Однако, для Burkholderia sp. MSMB1835 самым частым является Аланин, вторым по частоте Лейцин, а третьим - Глицин. Для Escherichia coli (strain K12) на первом месте Лейцин, затем Аланин, на третьем месте также Глицин.
~Два самых редких остатка, C(Цистеин) и W(Триптофан), совпадают для обоих протеомов. Самым редким является Цистеин, перед ним находится Триптофан. Последним в тройке самых редких остатков для Burkholderia sp. MSMB1835 является М(Метионин), а для Escherichia coli (strain K12) - Н(Гистидин).
~Разность процентов для остатка А(Аланин) самая большая в пользу Burkholderia sp. MSMB1835 (Около 4,36%). А для К(Лизин) - в пользу Escherichia coli (strain K12) (Около 1,65%).
~Восемь остатков (A, G, V, R, D, T, P, H) составляют большую процентную долю для Burkholderia sp. MSMB1835, а оставшиеся двенадцать (L, S, E, I, F, Q, K, N, Y, M, W, C) - для Escherichia coli (strain K12).

Программа COMPSEQ

Программа compseq рассчитывает состав уникальных слов в последовательности. Она принимает на вход следующие параметры: файл с последовательностью, длинну уникального "слова"(это должно быть натуральное число) и имя выходного файла, в который будет записан результат. Описанные мной параметры для ввода являются обязательными. Если они не будут получены в командной строке в начале команды, то программа сама попросит ввести недостающие параметры.
Выходной файл compseq включает в себя пять столбцов: само слово данной длины, сколько раз оно встречается, частоту встреч (т.е. отношение числа встреч к общему количеству слов), предполагаемая частота (т.е. частота, в которой предполагается, что все слова встречаются одинаково часто), а также отношение частоты встреч и предполагаемой частоты. В начале файла расположена информация, характеризующая входящую информацию, а в конце - строчка "Other", характеризующая нестандартные остатки, встречающиеся в последовательности.

Между программами compseq и wordcount есть несколько существенных отличий:
~В выходном файле compseq указываются названия всех последовательностей из входного файла. (The input sequences). А также прописывается длина слова (Word size) и общее количество слов(Total count).
~Кроме того, worldcount выдает меньшее количество информации - только само слово и количество его встреч. При этом слова упорядочены не по алфавиту, как в compswq, а по количеству встреч, от большего к меньшему.

Не смотря на, несомненно, большую информативность программы compseq, для выполнения практикума я бы выбрала программу wordcount (Собственно, ее я и использовала). Т.к. все необходимые для анализа данные были мной получены из Excel-таблицы, которую я составила, опираясь на данные выходного файла, сформированного командой wordcount. Конечно, часть из этих данных я могла бы получить с помощью compseq, но в этом не было необходимости. Однако для более быстрого и глубокого анализа больше подходит программа compseq.